论文翻译

您所在的位置:网站首页 cnn based 论文翻译

论文翻译

#论文翻译| 来源: 网络整理| 查看: 265

基于CNN的病理检测心音自动分类的时频特征研究

作者:Baris Bozkurta, Ioannis Germanakisb, Yannis Stylianou

代码地址:https://github.com/barisbozkurt/AutomaticPCGclassification

 

摘要

这项研究关注的任务是从数字心音图(PCG)信号中自动检测结构性心脏异常的风险,旨在儿童心脏病筛查应用。最近,各种基于卷积神经网络的系统在分段PCG帧的时频表示上训练,其性能优于使用手工特征的系统。本研究主要集中在CNN设计中的分割和时频表示部分。我们考虑最常用的特征(MFCC和Mel谱图)用于最先进的系统和受领域知识影响的时频表示,即子带包络作为替代特征。通过在两个高质量的数据库上进行的测试,我们发现子带包络比最常用的特征更好,周期同步加窗优于异步加窗。

关键词:心脏病筛查 、心音分类 、心音图分析 、自动心脏听诊 、时频特征

 

1  介绍

使用麦克风换能器记录和分析患者胸部的声音振动被称为心音图(PCG)。通过分析心音信号可以成功地研究几种心脏疾病:二尖瓣和主动脉瓣返流杂音、二尖瓣和主动脉瓣狭窄杂音以及风湿性瓣膜病变[1]。临床医生通过倾听患者的心音来监测心脏组织的功能,特别是瓣膜的打开和关闭。这种以诊断为目标的心音评估被称为听诊,通常涉及心音和杂音的时间和频率特征、整体周期性特征和声音质量的分析。

心脏病是一个主要的健康问题,在世界范围内花费巨大。尽管冠心病和高血压在成人中占主导地位,先天性心脏病(CHD)是导致儿童发病率和死亡率的重要原因。高达1%的新生儿被认为受到某种形式的冠心病的影响[2],根据潜在心脏畸形的严重程度,临床表现范围很广。有经验的心脏听诊是最重要的一线临床筛查工具,以检测个人与冠心病的风险。尽管早期CHD筛查具有相当大的健康优势,但初级保健医师面临着困难的临床任务,即区分健康儿童中经常出现的(无害的)杂音与那些与CHD相关的血流动力学异常(异常杂音)[3]。让所有有杂音的儿童接受昂贵的诊断性检查(如超声心动图)不是一种经济有效的方法[4]。然而,在应用诊断性超声心动图之前,专家听诊常常被推荐为一线筛查工具[5]。为了解决观察到的心脏听诊临床技能下降的问题,采用了多种方法,包括多媒体教学干预、远程医疗应用或其他基于计算机的临床决策支持系统[6]。

可以支持儿科结构(冠心病)筛查的一个重要资源是使用自动心音分类技术。有效的筛选既可以降低财务成本,也可以更有效地利用专家资源。一种低成本、非侵入性和快速的筛查方法也将提供机会,在早期对大量的人进行筛查,从而及时诊断一些病理病例。由于机器学习和计算的最新进展,许多音频分类任务(包括心音分类)的性能已经接近人类。我们的研究目标是提高自动心音分类技术的性能,以筛查冠心病的风险。

 

1.1研究重点与贡献

在本研究中,。虽然我们提出了一种功能系统,用于PCG自动分类,已经过测试,并显示在最先进的水平上的性能,

我们遵循了大多数最近开发的高性能系统的设计方法:基于分段PCG帧的时频表示训练的卷积神经网络。虽然我们提出了一个功能系统的自动PCG分类,已经过测试,并显示在最先进水平上的性能,但我们的主要重点是研究基于cnn方法的特征提取的各种策略。本研究的创新贡献如下:我们在两个大型数据库上进行了广泛的对比测试,包括多种分割设置(大小不同的周期同步和异步)、时频表示和神经网络模型:i)我们的专有PCG数据库,由儿科医生向心脏病学专家咨询患者的PCG记录,ii)用于比较最先进系统性能的最新挑战数据。作为这些测试的结果,我们表明子带包络(在该领域中相对很少用作时频特征)比常用的时频表示(如Mel频率倒谱系数(MFCC))更可取。为了研究的可重复性,我们分享了其中一种设置的代码,这种设置可以使用公开的数据进行测试。

本文组织如下:在第2节,我们首先回顾了心脏听诊的基础知识和心音自动分类的文献,重点介绍了基于CNN的方法。第三节介绍了所提出的方法,包括特征提取(也包括分割)和机器学习模型。我们在第4节解释了测试设计(以及测试数据的规范),然后在第5节解释了测试结果。第6节专门讨论从试验结果中得出的结论。最后,讨论和未来的工作将在第7节中介绍。

 

2  PCG自动分类简评

2.1心脏听诊基础

在开发心脏杂音自动分类之前,需要对心音产生有一个基本的了解。心音是通过血流和心脏装置(主要是瓣膜)运动在心脏内产生的声学信号,通过直接放置耳朵(从希波克拉底时代开始的历史听诊)或使用听诊器作为耳朵的传输器(从希波克拉底时代开始的现代听诊),可以在胸表面听到拉恩内克发现听诊器[7]。便携式电子听诊器今天主要用于记录,这有助于进一步分析基于计算机的系统。

正确的心脏听诊通常包括分析正常基本心音(S1和S2,分别对应于流入和流出瓣膜关闭)和杂音或额外心音(如咔哒声、S2异常分裂等)的时间和频率特征。心音和杂音的基音、持续时间、位置和形状特征是研究的主要内容。大多数冠心病患者由于存在腔内交通(分流病变)和/或瓣膜异常(狭窄或渗漏)而伴有异常血流模式。心脏杂音的临床分类是单纯的或异常的,主要是基于其在心脏周期内的时间分类(单纯的杂音仅在收缩早期到中期),基于最大点(最好听的位置)的空间分类,最后由于非常主观的杂音音质验证(纯音杂音通常被描述为具有“音乐”或“振动”特性)[8–10]。

心脏听诊,尤其是小儿心脏听诊仍然是一项具有挑战性的临床任务。它不仅需要长期的实践和经验,而且还存在感知上的困难:心音和杂音涉及低频成分(带有检测异常的辨别特征),这些成分几乎听不见,在许多情况下通常伴随着高度的噪音(环境噪音、呼吸、由于麦克风移动而引起的划痕),尤其是在小儿心脏听诊中。

全面的心脏病学分析除了听诊和心音描记术外,还涉及多种技术和技术的使用,如超声心动图、超声成像、血管造影、心电图、胸部X光片等,其中有些是昂贵的。很大比例的病例转介给心脏病学专家进行如此昂贵的分析,没有严重的问题[11]。心音自动分类技术在支持筛查过程和降低成本方面具有很大的潜力。

 

2.2心音自动分类

通过心音(HS)/心音图(PCG)自动分类检测心脏异常是一个非常重要的研究领域。手稿提供了对心音图(PCG)处理方法的深入回顾和对大量最先进方法的比较(如[12])。Leng等人[13]和Noponen等人[14]详细概述了讨论异常类型和相关PCG特征的问题。沈[15]回顾了心音图(PCG)信号在早期诊断中的应用。Abbas和Bassam[16]详细概述了处理PCG信号所涉及的信号处理步骤。Leng等人[13]进一步回顾了用于记录PCG信号的电子听诊器的最新硬件系统以及用于PCG自动分类的最新技术。Marascio和Modesti[17]以及Liu等人[18]详细回顾了特征选择和自动分类策略的发展趋势。对于许多其他的自动分类问题,自动分类系统的关键组成部分是:(训练)数据、分割、特征提取和机器学习。这些组成部分中的每一个(以及它们之间的相互关系)都在这个非常庞大的文献(几百篇论文)中以不同的维度进行了讨论。我们对这项工作特别感兴趣的是特征提取和机器学习组件。

用于PCG自动分类的特征可分为:时域、频域、统计域和时频域特征[18]。使用时域特征的研究通常包括在特征向量中,持续时间度量(对于S1、S2、舒张、收缩、R-R)及其比率(例如收缩间隔与心跳的比率),心音成分的相对振幅/能量度量,以及其他常见的时域特征,如过零率。参考文献[18]中介绍了一个包含这些特性的开源系统,作为PhysioNet-2016挑战赛的基线系统[12]。

与其他自动声音分类任务一样,频谱(频域)特征涉及各种各样的频谱表示和/或度量。Schmidt等人[19]考虑了用于PCG自动分类的各种光谱特征,如参数模型谱、瞬时频率和振幅(IFA),低频带的功率(低频带携带重要的信息),可以有效地建模,以设计PCG信号的鉴别特征。在我们之前的研究[20]中,我们使用重新分配的谱图进行特征计算。信号复杂度也可以建模/计算并用作特征,如样本熵、简单性和谱熵[19]。

在这里,由于对这一主题的大量评论的可用性,我们将限制我们对一种特定方法的讨论,这种方法从PCG自动分类的早期就开始使用,最近由于机器学习技术的进步而变得越来越吸引人:使用时频表示和神经网络来建立有效的心脏异常自动检测系统。

 

2.3心音自动分类的时频特征和神经网络

声音信号的时频表示通常指从信号的加窗段计算出的叠加(某些表示)频谱,以形成二维表示。在音频分类中使用时频表示的基本假设是,对于特定类别的声音,这些图像表示中存在一些模式。虽然存在许多用于计算这种表示的选项,但最常用的技术是在对数尺度上映射线性表示,如短时傅里叶变换(STFT),模拟人类听觉反应,如Bark或Mel。由Davis和Mermelstein于1980年提出[21],Mel频率倒谱系数(MFCC)可能是所有自动声音分类领域中最常用的特征。MFCC在PCG自动分类研究中也非常普遍和有效地用于病理检测[22–26]。大量的PCG自动分类研究使用基于小波的特征作为时频表示(例如[23]和[27]),因为小波在分辨率方面比STFT有一定的优势。

随着深度学习的发展,最近的大量研究考虑了,使用时频表示和深度神经网络结构的各种不同的声音分类任务,并报告了高成功率[28,29]。对于自动心音分类任务,这种方法也越来越流行,基于这种方法的系统在最近的挑战中名列前茅。在PhysioNet-2016挑战赛[12]中,前8名(从48个系统中选出)中有一半系统[24–26,30]使用这种方法。除[30]之外,我们无法找到详细的描述/文档,所有其他三个系统都使用MFCC和其他一些固定设置的时频特征(13–14个MFCC系数在25 ms窗口上计算,跳跃大小为10 ms,等等),这些特征被输入神经网络分类器。一些参数的选择似乎受到其他音频分类任务的高度影响。例如,在语音处理任务中使用的窗口和跳跃大小通常被选择为一些普遍接受的平均周期长度的倍数(例如100 Hz的基频,周期为10 ms)。在语音处理中,使用几个周期(25–30 m s)的窗口长度和大约一个周期(10 m s)的跳跃长度是很常见的。在PCG分类中应用相同的长度(25–30 m s窗口长度和10 m s跃点长度)是一个有趣的选择,因为最大频率不会超过5 Hz(200 m s周期),但在一些最先进的系统中似乎是首选的(例如[25])。

 

 3  方法

我们的研究遵循基于卷积神经网络(CNN)的分类,但有以下区别:虽然大多数研究提供了一个单一的最佳选择配置,但确实存在各种分割选项(周期同步或异步,不同大小(接近平均PCG周期长度)),各种特征(MFFC,具有不同大小(时间分辨率和频率系数数)的谱图、谱图等,各种CNN结构。因此,大量不同的设置值得测试。我们设计了测试来比较不同设置的常用时频表示直接作为输入到CNN分类器。本研究考虑的特征有:Mel谱图、MFFC和子带包络。通过对两个高质量数据集的测试,我们发现在许多情况下,子带包络比其他选择更可取,并且使用此特性构建的具有相对简单结构的系统实现了高性能。接下来,我们讨论这些特征的计算。

 

3.1特征提取

特征提取可以在整个信号级或帧/段级进行,其中多个帧通过窗口进行提取。如引言所述,在本研究中,我们仅限于帧级时频特征提取。此外,为了对单个文件进行分类,融合了帧级决策。

帧级特征提取需要将信号自动分割成帧。分割可以同步或异步进行,我们在对比测试中包括了这两种策略。对于周期同步分割,周期标记是必要的。

 

3.1.1. 周期标记与分割

周期标记(分割为心脏周期或周期开始实例的标记)可以直接在PCG信号上进行,并且有大量的文献和公开的最新工具可用于此任务[31]。由于PCG记录的位置(在患者身体上)影响S1-S2分量的相对能量,并且可能存在大量噪声,因此可靠地对PCG信号执行标记是一项具有挑战性的任务。当并行记录的心电图(ECG)信号可用时,可以更可靠地执行自动标记,因为ECG信号的噪声较小,并且它们包括可以跟踪的主峰以进行可靠的周期标记。

我们的数据库(在测试设计部分中解释)包括与PCG信号同时记录的ECG信号,因此实现了具有以下步骤的算法,并用于从ECG信号中提取周期标记(检测ECG的R峰值位置,参考PCG的S1开始[31]):

●对ECG信号进行高通滤波,以消除非常低的频率变化

●将预强调的ECG与原始ECG进行元素相乘,以获得更具脉冲性的信号

●计算能量信号和能量信号的振幅标准化

●从能量信号中进行基于自相关的周期检测

●估计信号中的心动周期数

●通过应用阈值检测信号峰值:逐渐降低阈值(初始值为0.5),直到峰值计数大于估计周期数的四倍。这种选择的目的是处理周期估计中可能出现的八度误差。此外,第二峰值可能在周期内突出。

●使用峰值幅度比较和与周围峰值的距离去除杂散峰值

我们没有对这个算法进行正式的测试,但是对数据库中的大多数样本进行了目视检查,以观察潜在的问题。该方法为几乎所有病例提供了高质量的周期标记。图1显示了我们数据库中的两个示例。上图包括ECG信号,其中周期标记用红点表示,并获得固定长度的帧,下图显示了具有周期标记的相应PCG信号。对于提取也涉及心音S1分量的帧的窗口操作,周期标记向左移动75 ms。一旦周期标记可用,就可以使用不同的策略进行分割以获得PCG帧。以下细分策略值得测试:

●周期同步分段,分段长度与局部周期(半周期、一周期、两周期等)成比例定义。对于大于一个周期的段长,重叠是固有的。

●固定段长的周期同步分段(0.5s、1s、2s等)。当线段长度超过周期长度时,重叠是固有的。

●固定段长(0.5s、1s、2s等)有或无重叠的周期异步分段。在图2中举例说明了这一点,其中用2s的固定长度和1s的跳大小(即50%重叠)的帧边界一起描绘了样本。

在进行的试验中考虑了许多这样的选择。当然,这会给要执行的测试的数量增加一个乘法因子。

 

 

图1:心电信号0.5s帧的自动周期标记和周期同步分割。节距标记用红点表示,并用黑色矩形获得固定长度的帧。(有关此图例中对颜色的引用的解释,请参阅本文的Web版本。)

 

图2:长度为2s,跃点大小为1s的异步分割示例。帧边界用黑色实线表示。

 

3.1.2. 计算时频特性

考虑到采用CNN架构的自动音频/声音分类系统,以下时频表示被选为最常见的表示(通常也包含在音频处理软件库中):

●光谱图

●MFCC(带或不带δ系数)

●Mel光谱图(带或不带δ系数)

除了这些常见的表示之外,我们还包括子带包络作为时频表示。这里,通过叠加通过对PCG信号进行带通滤波而获得的子带的时间调制包络来形成给定PCG信号的子带包络(以时频特征的形式)(在下一小节中详细讨论)。对于所有特性,如测试设计部分所述,测试了各种时间和频率分辨率。在特征计算之前,对信号段应用Tukey窗口(r=0.08)。

 

3.1.3. 作为时频特征的子带包络

心脏病学专家分析PCG的一个重要步骤是研究杂音和心音的信号形态。专家们经常使用专用的软件工具来应用带通滤波器(他们可以控制灵活的设置),并检查信号分量的形状和定位。他们利用以往案例的经验,检查信号和信号包络的形状。在自动分类系统的开发中,这种做法可以通过将时频表示构建为子带信号包络的叠加来模拟。

子带(时间)包络已成功地用作自动语音识别领域的时频特征[32,33]。在自动PCG分析文献中,使用包络信号进行分割是比较常见的。Liu等人[18]详细回顾了用于PCG信号自动分割的基于包络的方法。虽然包络信号被成功地用于分割任务(例如[34]),但它们也被直接用作输入神经网络分类器的特征,尽管很少,因为早期的自动PCG分类[35]。在对提取的系数进行下采样时,一些基于小波变换的特征也可以解释为子带包络特征。Deng&Han[36]提出了一项紧随该方法的最新研究,其中子带包络是根据离散小波分解(DWT)系数计算的。Potes等人[24]使用子带信号的中值功率,这也可以被视为类似的表示,其中每个子带包络使用的样本非常少。

子带包络可以用多种方法计算。我们选择了以下步骤(如图3所示)来计算PCG段的子带包络线:

●使用伽玛通滤波器组应用于PCG信号的带通滤波

●使用希尔伯特变换计算分析信号的包络检测

●将得到的矩阵处理为具有零均值和归一化振幅

在图3中,我们给出了该过程的流程图和特征提取的示例,描述了计算的子带信号包络以及以矩阵形式获得的最终特征。顶部的子图包括8个子带信号及其从原始PCG信号中提取的重采样版本(蓝色显示)。考虑到这个特殊的例子,在将大小为128(时间箱数)的8个向量(对应8个子带)堆叠之后,得到一个8*128的类图像表示,并使用颜色编码元素值绘制出底层子图,这是作为输入到分类器的主要特征。

 

图3:子带包络特征计算。原始PCG信号用蓝色表示。子带包络特征是在特征提取过程的输出处获得的矩阵,其通过将矩阵系数映射到颜色代码(低值:暗,高值:亮)被描绘为彩色图像。(有关此图例中对颜色的引用的解释,请参阅本文的Web版本。)

 

3.2. 机器学习

大量的神经网络模型可用于PCG分类任务。我们的测试仅限于使用应用于帧级特征的前馈CNN模型,这是该领域最新系统中最流行的方法之一。

为了限制测试的数量(以便可以在合理的时间内重复测试),我们考虑了三个类似的模型,其中包括文献中用于类似任务的常见层序列:二维卷积层(内核大小为3×3,校正线性单元激活),然后是最大池和退出层。输入维度等于特征维度,输出维度是两个(类别数:正常和病理)。这些模型是使用keras和tensorflow作为后端实现的。Keras模型和所有其他设计参数可从附带的存储库中获得。由于PCG数据库的大小通常相对较小(与CNNs的其他自动分类任务相比),具有高容量的复杂模型学习记忆列车数据。因此,层的数量被保持在很小的范围内,并应用L1正则化来避免过度拟合。三种模型的二维卷积层数分别为:1、2和4。

每个模型都被设计用来计算一个片段属于一个病理病人的记录的概率。此外,为了计算文件/患者属于病理类别的概率:对所有帧概率进行排序,丢弃15%的最低值和15%的最高值,最后,将文件的概率计算为这些剩余帧的平均概率。

 

4  试验设计

在这里,我们首先解释测试中使用的数据,并进一步讨论测试设计过程中考虑的自动化系统的各个方面。

 

4.1. 数据库

两个数据库(在患者年龄和病理学上有很大差异)被考虑用于比较试验。第一个数据库是一个专有数据库,代表了基于PCG的儿科心脏病筛查的真实场景。它是最大的儿童专用数字心音图数据库之一。第二个数据库是一个公开的数据库,主要涉及成人心音记录,它代表了世界上最大的最新心音图数据库,用于比较各种分类研究的文献。

 

4.2. 克里特大学,PCGs杂音(UoC杂音)数据库

我们的数据库由匿名数字心音图(4-10秒长,包括4-18个PCG周期,平均8个周期)组成,作为标准护理(提供时间津贴)从儿科心脏病学门诊患者获得,并从学龄儿童(8岁儿童)的试点儿科心脏病学筛查计划获得,经希腊教育部和当地卫生当局批准,将数字心音图作为儿童心脏病筛查的一个组成部分(克里特儿童心脏病筛查计划CPCS)。数据库包括与各种类型和严重程度的冠心病相关的异常杂音。此数据库是专有的,不公开。

根据临床听诊和最后的超声心动图证实性研究,由一名儿童心脏听诊专家(如第二作者)将每个记录标记为正常(即有无杂音)或异常。因此,我们的数据库包括从不同年龄的儿童身上获得的异常杂音样本,通常是不理想的记录条件,或者是儿科医生很难将其分类的无辜杂音,或者是在小学访问期间记录的(与外部噪音的高概率相关)。可用的数据库代表了在现实生活条件下对不同年龄段的儿童患者的评估。

由于超声心动图验证性分析的高成本,只有部分数据库(83个PCG样本)被两位儿科心脏病学专家独立交叉验证[37]。该数据库包括被认为是“难以分类”的不同程度冠心病的样本,即使对专家来说也是如此。它很好地代表了现实生活中的日常临床挑战场景。同一数据库的选定录音也用于教学目的[6,38]。该数据库的代表性数字心音图,以及儿科心脏听诊的扩展介绍性网络讲座,在机构网络服务器上作为开源材料免费提供。

该数据库包含来自327名健康儿童的336条记录,以及来自117名不同年龄段(婴幼儿和青少年)的各种形式的冠心病儿童的130条记录。数字心音图记录技术已经标准化并在前面进行了描述[37]。简单地说,使用了一种基于传感器的电子听诊器,带有3-导线ECG。每名患者进行4次胸骨位置记录,分别对应于心尖、左下(第四肋间)和右上(第二肋间)左右胸骨旁位置。数字声学数据(采样率为44100 kHz,16位动态分辨率)和ECG信号通过指定的软件作为波形文件传输并存储在个人笔记本电脑中。在数据分析之前,任何个人识别数据都已被删除并替换为随机ID。

对于每位患者,专家选择一个或两个具有最高杂音检测质量的记录,并从集合中删除所有其他记录。采用以下步骤对原始数据进行预处理:i)ECG数据下采样至882hz,PCG数据下采样至4410hz;ii)ECG和PCG信号均进行幅度归一化,最大值为0.9。

 

4.3. PhysioNet-2016数据库

最近,一个大型开放的PCG数据库被宣布:正常/异常心音记录的分类:生理网络/心脏病学计算挑战2016[12]。这个数据库包括各种其他数据库的汇编,是一个非常好的资源,可以将一个特定的系统与各种最先进的算法进行比较,而无需实现它们和运行实验。PhysioNet-2016数据包括一些非常嘈杂的数据(甚至一些非PCG样本),不包括ECG通道。第2节和[12]表1提供了9个数据库的详细概况,共有2435个PCG记录。

 

4.4. 决定系统设置

PCG自动分类系统包括以下几个基本模块:分割、特征提取和机器学习。我们的测试设计从考虑这些块的交叉组合设置开始。作为第一步,已经创建了一个组合的初始列表:

分段策略(11个选项):

●周期同步分段:0.5周期、1周期、2周期大小的分段,或固定大小的0.5、1、2、3s分段。如果大小超过局部周期,则存在重叠。

●周期异步分段,固定大小的分段为0.5、1、2或3s,重叠1s。

特征(48个选项):

●频谱图、Mel频谱图、MFCC和子带包络

●时间分辨率:32、64、128(点)

●频带:8、16、24、32(带)

机器学习模型(3个选项):

●具有1,2或4个二维卷积层

数据库(2个选项):

●UoC杂音数据库:单纯杂音与病理性杂音

●PhysioNet-2016数据库:正常与病理性杂音

此初始列表涉及1584个系统(在两个数据库上测试的异步系统),其中每个测试还需要重复多次,以消除应用于数据库的随机分裂的偏差(本节将进一步解释)。

虽然我们认为值得考虑所有这些设置,但是由于测试的数量如此之多,一些额外的选项(例如使用其他机器学习模型(LSTM、RNN等),使用文献中的其他文件级特性)被忽略了。由于计算时间的实际原因,一些维度被孤立地考虑,没有重复测试。除去这些初步测试中最糟糕的情况,最终测试的列表已经减少到总共90个系统。出于空间的考虑,在这里,我们将只提到我们的观察,这导致我们忽略了一些选择。

在独立和简化的组合测试中,我们根据F1指标对系统进行了分类,并观察到使用谱图的系统得分最低。因此,从特征列表中删除了光谱图。相对于局部周期长度定义的节段长度似乎并不比使用固定大小更有利,也被删除。对于周期异步段的测试,0.5和1s的长度太短,学习不能收敛。高于16个频带并未带来改善(PCG频谱限制在2.2 kHz),8个频带和16个频带的性能相似。对所有系统进行分类,2层和4层卷积的机器学习模型的排名高于单层卷积的机器学习模型。使用delta系数与Mel谱图和MFCC也进行了测试和观察,没有带来任何改善。

 

4.5. 已测试的系统设置

我们最终得到了以下(90)个系统的简化列表,其中一个数据库的测试可以在几天内用一个GPU重新运行/重复。

分段策略(5种选择):

●0.5、1、2秒长度的周期同步分段

●2、3秒长度的周期异步分段

特征(9个选项):

●Mel光谱图、MFCC和子带包络

●时间分辨率:32、64、128

●频带:16个

机器学习模型(2个选项):

●具有2或4个二维卷积层的模型

我们的测试包括在UoC杂音数据库上对90个系统(54周期同步和36周期异步)进行重复实验,然后选择一个高性能周期异步系统,并在PhysioNet-2016数据上对该系统进行重复测试。在UoC杂音数据库的测试中,对每种分割策略都测试了以下选项:使用三种不同时间分辨率(32、64、128)和两种不同CNN模型的三种不同特征(Mel谱图、MFCC和子带包络)。我们的共享存储库包括这段时间异步系统的实现和测试脚本。读者只需运行我们的共享测试脚本,就可以用PhysioNet-2016数据重现我们的结果。

 

4.6. 数据分割、扩充和平衡

对于学习实验,数据需要分成三个子集:训练、验证/开发和测试。在我们的测试中,验证集用于观察学习过程中的精度和损失如何变化,根据这些观察(避免过度拟合)更改模型参数(手动),并(自动)保存在学习测试中学习的最佳模型(当验证集达到最高精度时)。用于训练、验证和试验的分流比分别为65%、15%和20%。

随机分裂中的一个重要细节是确保每个集合由完全独立的样本组成。在文件级执行拆分,保持样本数在每组类别中的相似分布(即,训练、验证和测试集包括正常和病理病例的相似分布)。

数据扩充是指以人工/自动的方式创建新的样本,以增加用于训练的数据库的大小,并已被证明在许多应用中是有益的[39]。添加新样本的一种简单方法是通过应用系统应该对其保持不变的转换来创建现有样本的新副本。对于我们的问题,我们希望我们的系统对心率和杂音频带的微小或中等变化保持不变。创建具有不同心率和杂音频带的新样本的一种简单方法是对现有样本进行重新采样,并将其保存,就像采样率没有改变一样。这将压缩/扩大频谱,相应地改变杂音频带和心率。

通过在随机选择的样本上使用10%–20%范围内的随机值改变采样率来执行数据扩充。在所有测试中,使用了2的增强比(即数据的大小加倍)。数据扩充仅适用于训练组。

我们的原始数据库在每个类别的样本数量上是不平衡的:病理类别的样本数量较少。通过省略大量填充的类别中的样本,可以很容易地平衡数据。但是,由于数据库的大小太小,我们不能忽略样本。我们采用了另一种方法:使用重采样为样本数较少的类别创建新样本。使用的程序与数据扩充步骤相同。平衡操作通过创建原始文件的新转换样本应用于训练集和验证集,而不是测试集。

 

5  试验结果

虽然要测试和比较的系统数量减少到90个,但仍然需要一种方法来对系统进行性能排序。对于我们的筛查应用,我们希望我们的自动系统能够检测尽可能多的病理病例(即我们希望增加真阳性率(TPR)),同时我们可以容忍一些正常病例被标记为病理性病例(即我们可以容忍假阳性率(FPR)的一些增加)。在现实生活中,这相当于将大量样本标记为病理性,将一些异常病例提交给专家咨询。自动分类系统对每个样本的输出是属于某一类别的概率。在一个二值分类任务中,采用0.5作为概率阈值进行直接的类分配。降低病理检测的门槛,更多的病例将被标记为病理。这将增加真阳性率和假阳性率。为了寻找最佳工作点,绘制了不同阈值下的TPR与FPR曲线,得到了常用的接收机工作特性(ROC)曲线。ROC曲线下的面积被认为是衡量排名的主要指标。在排序之后,我们还为所选系统提供其他性能度量。

 

5.1. UoC杂音数据库的测试结果

为了开始我们对一个样本的各种特征的比较,下面我们给出了三个不同特征的ROC曲线,同时保持所有其他设置相同:32,16个频带的时间分辨率,固定长度为500ms的ECG同步分割,使用具有2个卷积层的CNN模型。ROC曲线是在UoC杂音数据库上通过平均5次重复随机实验获得的。

在图4中,三者中最好的系统是使用子带包络的系统,因为该系统的ROC曲线更接近左上角(高TPR、低FPR),并且ROC下的区域最大。根据这个样本的直觉,为了比较90个系统,我们使用ROC下的面积作为对所有系统性能进行排序的单一度量(表1)。由于涉及随机分裂,测试重复5次,每个系统使用平均ROC曲线。

 

图4:使用三种不同特征的系统的ROC曲线,同时保持所有其他设计参数不变。

 

表1:根据接收器工作特性(ROC)下的面积对系统进行排序。命名约定:M1/2: CNN型号,eSyn: ECG同步,ASyn:异步。最右边的数字是指帧的固定长度,以毫秒为单位。表中列出了最佳和最差的25种系统。请参考github存储库中所有90个系统的表:/results4allSystems_UocDba/ sortingwrtareaunderrc .txt。

 

这些最佳和最差的20个系统的ROC曲线如图5所示。

 

 

 图5:在UoC杂音数据库上测试的最佳和最差20个系统的ROC曲线

 

在图6中,我们展示了使用特定特征的系统的ROC曲线。测试结果表明,使用子带包络的系统比使用MFFC和Mel谱图特征的系统排名更高:最佳25个系统中有23个系统使用子带包络作为特征(见表1)。ROC曲线也支持这一观察:与其他ROC曲线相比,使用子带包络的系统的ROC曲线更接近左上角。一个有趣的发现是,使用异步帧的系统具有足够高的性能,可以排在第四位。这一点特别重要,因为周期标记,因此在此类系统的设计中不需要ECG通道。

 

 图6:ROC曲线按特征分组。

 

为了比较同步和异步系统的性能,在图7中,我们将使用子带封套的系统的ROC曲线分为两组,一组使用同步帧,另一组使用异步帧。

从图7中,我们观察到同步系统的性能通常更高,但一些异步系统的性能与同步系统的最高性能相当。这也反映在表1中:排名第四的异步系统的ROC区域为0.8716,而最佳系统(同步)的ROC区域为0.8772。这一观察结果表明,异步系统(采用成功的参数优化设计)的性能可以非常接近同步系统的性能(正如Zabihi等人[25]所报告的)。

 

图7:将图6a(使用子带包络的系统的ROC曲线)分解为两组:应用同步分段的系统和应用异步分段的系统。

 

5.2. PhysioNet-2016数据测试结果

感谢Physinet-2016数据[18]的作者,它是一个很好的资源,可以将新方案与最新最先进的系统进行比较,而无需实施这些系统并重新运行挑战性实验,因为这些系统的性能已经在参考文献[12]中报告。在这里,我们用这些公开可用的数据进行测试,并报告我们的系统性能,这可以与参考文献[12]中的结果进行对比。

对于PhysioNet-2016数据,ECG通道不可用。最近,Zabihi等人[25]已经证明,使用异步帧(没有分段的系统)也可以实现高性能,这也得到了我们上述观察的支持。我们使用异步帧对性能最好的系统进行了实验,在UoC杂音数据库的实验中,异步帧排名第四。

使用1s的跃点大小,通过创建新样本进行平衡,从PhysioNet-2016数据库中提取的帧数为103228。由于数据段的数目相对较高,因此在这些测试中不应用数据扩充。每次试验重复5次,取平均值。在表2中,我们给出了系统的混淆矩阵和其他性能度量:M1SubEnv32by16_nASyn2000。

 

表2:冠心病危险性检测混淆矩阵(5次实验结果取平均值后,以0.5作为分类概率阈值)系统:M1SubEnv32by16_nASyn2000。

 

可公开访问的Physionet-2016包含一个训练集和一个验证集(共享的目的是预先测试提交挑战的功能),这实际上是训练集的一个子集。由于主要目的是运行开放式挑战,因此测试集不可用。为了便于我们的结果与其他研究中的测试进行比较,我们决定使用提供的验证集作为测试集,从训练集中删除副本,并进一步将训练集拆分为训练和验证子集(该验证集指机器学习实验中的子集)。该系统的实现、测试脚本(下载PhysioNet-2016数据、执行拆分和运行实验)以及涉及其他评估措施的更详细结果已在Github上公开共享,以促进我们测试结果的再现性。

在参考文献[12]表3中,前8个系统(在48个提交的系统中)的性能被列为特异性值在0.7120–0.9424之间,特异性值在0.7569–0.9521之间,平均准确度在0.7057–0.8602之间。这些值是通过对在测试数据上获得的分类结果施加信号质量的加权来计算的,这些测试数据是不公开的。在我们进行的测试中(上面解释了训练、验证和测试集分割),我们的共享系统得到了以下分数:0.845敏感性、0.785特异性和0.815平均准确度。虽然这些结果不能直接与参考文献[12]中的结果进行比较(因为它们不是在同一测试子集上计算的,也没有应用加权),但它们表明我们的系统与排名靠前的最先进系统的性能相似。读者可以参考参考文献[12]中的完整表格,了解关于挑战中最佳系统性能的详细信息。

 

6  结论

本研究旨在比较基于分段PCG帧的时频表示训练的前向卷积神经网络在PCG自动分类中的各种特征和分割策略。为了达到最佳设计,在包含无害和异常杂音病例的具有挑战性的数据集(UoC杂音数据库)上测试了90种不同的系统设置,并在包含正常和病理病例的PhysioNet-2016数据上测试了选择在这些测试中具有高性能的系统。代码(这个特定的系统和测试脚本)已经公开与社区共享,以便于我们研究的再现性和与最新技术的比较。我们应该强调的是,我们在这篇手稿中的主要贡献在于比较各种分割和特征计算策略,而不是提出一个比现有技术更具性能的最佳系统。我们对PhysioNet数据的分析支持这样一个事实,即对比测试是使用与最先进的系统性能相同的系统结构进行的。

为了对90个不同的系统进行排序,ROC曲线是通过应用不同级别的阈值从病理学概率中进行最终分类得到的,ROC下的面积被用作代表每个系统在筛选应用中潜力的单一度量。所有的系统都是按照ROC下的面积来分类比较的。此外,我们还为选定的系统提供了其他性能度量。敏感性和特异性是筛选应用的关键指标。与准确性一起,这些评估指标在比较研究中最为常见,如[12]。

如表1所示,使用子带包络的系统在系统排序列表中排名最高(相对于ROC下的区域):90个系统中排名最高的23个系统使用子带包络作为特征。考虑到大多数最先进的系统更喜欢mfcc作为时频表示,这是一个重要的观察结果。使用子带包络的系统的ROC曲线通常比使用MFCC或Mel谱图的系统更接近左上角(图6)。

UoC杂音数据库包括从转诊给心脏病学专家的患者中记录的有杂音的PCG样本。这意味着儿科医生已经考虑到该数据集中的所有病例都有潜在的心脏功能不全/缺陷风险,因此对于自动分类任务来说,这确实是一个具有挑战性的集合。我们的数据库完全由儿科数字心音图组成,对应于不同程度的冠心病(最轻微的形式也被有经验的儿科心脏病专家错误分类),以及来自无害的杂音,大多数被治疗医生错误分类为异常。与成人听诊相比,幼儿听诊也面临着特殊的挑战。在某些情况下,很难获得没有划痕噪音的干净录音。心率通常比成人高(高达成人常模的两倍),这导致了周期标记和选择的进一步挑战。

通过对我们的数据(UoC杂音数据库)的测试开发出的最佳系统是M1_SubEnv64by16_eSyn1000:CNN,它具有两个卷积层,使用时间分辨率为64的子带包络,16个频带计算周期同步1s帧作为特征。由于ECG通道不可用,该系统尚未在PhysioNet-2016数据上进行测试。在使用UoCmurmur数据库进行测试之后,使用周期异步帧的系统已经在Physonet-2016挑战数据上进行了测试:性能最高的异步系统(在使用UoC Murrur数据库的测试中排名第4)。我们已经证明,我们的异步系统的性能与文献[12]中报道的排名靠前的最先进系统相似,灵敏度为0.845,特异性为0.785,平均准确度为0.815。

 

7  讨论和今后的工作

我们的研究涉及到一些需要进一步深入分析的过程,我们认为这是进一步研究的挑战。首先是更好地理解所应用的数据扩充步骤的有效性和替代方法。虽然应用的转换是温和的(扩展/收缩原始持续时间的10-20%),但均匀重采样并不反映由心脏物理约束控制的心脏周期的变异性。应制定与心脏物理环境相关的数据扩充策略。

对于子带包络计算,我们只考虑了Gammatone滤波器组的一个具体设置:简单地将滤波器组的数目设置为8、16、24等,对子带滤波过程缺乏深入的分析。Gammatone滤波器组是首选的,因为它反映了一些听觉反应特征(虽然不是全部,如响度相关的非线性听觉行为)。对滤波器组计算优化的研究可能会提高性能。

我们应用了帧级分类,然后通过平均融合来推断整个PCG信号属于一个类别的概率。这一步还有许多其他的选择(例如多数投票)。我们没有测试其他策略,以避免在测试中包含一个更复杂的维度。

PCG自动分类系统的设计需要对大量的设置进行优化。通过参数优化提高系统性能是未来研究的一个选择。进一步研究的另一个方向是使用多传感器信号处理技术来降低筛选应用对有经验操作员的需求。在参考文献[40]中,作者提出使用多通道PCG记录来消除噪声,这将导致一个更健壮的PCG分析系统。使用多传感器系统记录的各种模式的联合分析,如心电图(BCG)、ECG和PCG[41,42],也有可能提高筛查应用的性能。建立最终产品并在现实场景中测试它们是我们研究界应该考虑的一个重要的未来方向。

 

利益冲突

本手稿的作者声称与任何个人或机构没有利益冲突。

 

感谢

该项目由克里特大学研究特别账户(代码4305)资助。我们要感谢希腊教育部和地方卫生当局(克里特第七卫生区)对CPCS计划的支持,以及克里特大学对创新心脏听诊教学方法(包括网络讲座主持)的支持。我们要感谢Vassilis Tsiaras在整个研究过程中的宝贵帮助和帮助,以及导致最终设计的富有成果的讨论,并感谢Alena Burianova Bagaki在数字心音图记录方面的宝贵帮助。

 

参考文献

 



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3